智能论文笔记

jaCappella Corpus: A Japanese a Cappella Vocal Ensemble Corpus

Tomohiko Nakamura , Shinnosuke Takamichi , Naoko Tanji , Satoru Fukayama , Hiroshi Saruwatari

分类：机器学习

2022-11-29

We construct a corpus of Japanese a cappella vocal ensembles (jaCappella corpus) for vocal ensemble separation and synthesis. It consists of 35 copyright-cleared vocal ensemble songs and their audio recordings of individual voice parts. These songs were arranged from out-of-copyright Japanese children's songs and have six voice parts (lead vocal, soprano, alto, tenor, bass, and vocal percussion). They are divided into seven subsets, each of which features typical characteristics of a music genre such as jazz and enka. The variety in genre and voice part match vocal ensembles recently widespread in social media services such as YouTube, although the main targets of conventional vocal ensemble datasets are choral singing made up of soprano, alto, tenor, and bass. Experimental evaluation demonstrates that our corpus is a challenging resource for vocal ensemble separation. Our corpus is available on our project page (https://tomohikonakamura.github.io/jaCappella_corpus/).

translated by 谷歌翻译

Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis Using Linguistic and Prosodic Contexts of Dialogue History

Yuto Nishimura , Yuki Saito , Shinnosuke Takamichi , Kentaro Tachibana , Hiroshi Saruwatari

分类：自然语言处理 | 机器学习

2022-06-16

我们提出了一个端到端的移情对话言语综合（DSS）模型，该模型既考虑对话历史的语言和韵律背景。同理心是人类积极尝试进入对话中的对话者，而同理心DSS是在口语对话系统中实施此行为的技术。我们的模型以语言和韵律特征的历史为条件，以预测适当的对话环境。因此，可以将其视为传统基于语言 - 基于语言的对话历史建模的扩展。为了有效地培训善解人意的DSS模型，我们研究1）通过大型语音语料库预审预测的一个自我监督的学习模型，2）一种风格引导的培训，使用韵律嵌入对话上下文嵌入的当前话语，3）对结合文本和语音方式的跨模式的关注，以及4）句子的嵌入，以实现细粒度的韵律建模，而不是通过话语建模。评估结果表明，1）仅考虑对话历史的韵律环境并不能提高善解人意的DSS中的语音质量和2）引入样式引导的培训和句子嵌入模型的言语质量比传统方法更高。

translated by 谷歌翻译

STUDIES: Corpus of Japanese Empathetic Dialogue Speech Towards Friendly Voice Agent

Yuki Saito , Yuto Nishimura , Shinnosuke Takamichi , Kentaro Tachibana , Hiroshi Saruwatari

分类：人工智能 | 自然语言处理 | 机器学习

2022-03-28

我们提出了研究，这是一种新的演讲语料库，用于开发一个可以以友好方式讲话的语音代理。人类自然会控制他们的言语韵律以相互同情。通过将这种“同情对话”行为纳入口语对话系统，我们可以开发一个可以自然响应用户的语音代理。我们设计了研究语料库，以包括一位演讲者，他明确地对对话者的情绪表示同情。我们描述了构建善解人意的对话语音语料库的方法论，并报告研究语料库的分析结果。我们进行了文本到语音实验，以最初研究如何开发更多的自然语音代理，以调整其口语风格，以对应对话者的情绪。结果表明，对话者的情绪标签和对话上下文嵌入的使用可以与使用代理商的情感标签相同的自然性产生语音。我们的研究项目页面是http://sython.org/corpus/studies。

translated by 谷歌翻译

Dynamic Data Augmentation with Gating Networks

Daisuke Oba , Shinnosuke Matsuo , Brian Kenji Iwana

分类：机器学习

2021-11-05

数据增强是一种通过增加数据集的大小来提高机器学习方法的泛化能力的技术。但是，由于每个增强方法对每个数据集没有同样有效，因此您需要仔细选择最佳方法。我们提出了一种神经网络，其使用互利的门控网络动态地选择最佳组合和特征一致性损失。门控网络能够控制每个数据增强的数量用于网络内的表示。另一方面，功能一致性丢失给出了来自相同输入中的增强功能的约束应该相似。在实验中，我们从2018年UCR时间序列档案中展示了所提出的方法对12个最大时间序列数据集的有效性，并通过分析所提出的方法来揭示数据增强方法之间的关系。

translated by 谷歌翻译

Unsupervised-learning-based method for chest MRI-CT transformation using structure constrained unsupervised generative attention networks

Hidetoshi Matsuo , Mizuho Nishio , Munenobu Nogami , Feibi Zeng , Takako Kurimoto , Sandeep Kaushik , Florian Wiesinger , Atsushi K Kono , Takamichi Murakami

分类：计算机视觉

2021-06-16

综合正电子发射断层扫描/磁共振成像（PET/MRI）扫描仪通过PET和形态信息促进了同时获得代谢信息，并使用MRI进行了高软组织对比度。尽管PET/MRI促进了捕获高精度融合图像，但其主要缺点可以归因于进行衰减校正时遇到的困难，这对于定量PET评估是必不可少的。合并后的宠物/MRI扫描需要从MRI中产生衰减 - 校正图，这是由于伽马射线衰减信息与MRI之间没有直接关系。尽管可以轻松地为头部和骨盆区域执行基于MRI的骨组织分割，但通过胸部CT生成来实现准确的骨骼分割仍然是一项艰巨的任务。这可以归因于胸部发生的呼吸和心脏运动，以及其解剖学上复杂的结构和相对较薄的骨皮质。本文提出了一种方法，可以通过使用独立于模态的邻域描述符（思维）添加结构性约束，从而最大程度地减少解剖结构变化，而无需人类注释，从而将结构性变化（MID）添加到可以转换不配对图像的生成对抗网络（GAN）中。在这项研究中获得的结果揭示了拟议的U-Gat-It +思维方法，以优于所有其他竞争方法。这项研究的发现暗示了可能在没有人类注释的情况下从胸部MRI中合成临床上可接受的CT图像的可能性，从而最大程度地减少了解剖结构的变化。

translated by 谷歌翻译